Pour des données bien ordonnées
Trucs pratiques et partage d’expériences

Caroline & David (Patenaude)
Bibliothèque des lettres et sciences humaines

2022-05-13

Plan

Première partie: de l’importance des données bien ordonnées

  1. Données de recherche -> de quoi parle-t-on?
  2. Gestion des données et cycle de vie de la recherche
  3. Pourquoi la GDR? Avantages
  4. Enjeux de la reproductibilité
  5. GDR vs Reproductibilité ?
  6. Initiatives pour changer la “culture” de la recherche
  7. Prioriser ses activités de GDR

Deuxième partie: quelques bonnes pratiques

  1. Planifier
  2. Organiser
  3. Documenter
  4. Diffuser

1. Données de recherche -> de quoi parle-t-on?


Multitude de définitions - grande variation selon les disciplines en fonction de leurs objets de recherche

“les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche”. - Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics


Bref, matériaux de base de la recherche:

2. Gestion des données et cycle de vie de la recherche

3. Pourquoi la GDR? Avantages

4. Enjeux de la reproductibilité

5. GDR vs reproductibilité ?

6. Initiatives pour changer la “culture” de la recherche

Slow Science

Open Science



7. Prioriser activités de GDR


Nombreux facteurs à considérer:


Nature des données:


Nature du projet:

Deuxième partie: quelques bonnes pratiques

Il faut tout au long de sa recherche gérer ses données en se posant la question :

De quoi aurait besoin un collègue qui voudrait reproduire mes résultats sans mon aide?


4 volets essentiels à considérer:

  1. Planifier
  2. Organiser
  3. Documenter
  4. Diffuser

2.1. Bonne pratique #1: Planifier!

Quels types de données allez-vous recueillir, créer, acquérir? Dans quels formats de fichier vos données seront-elles recueillies? Comment vos données seront-elles sauvegardées pendant votre recherche? Qui est responsable de quoi?


Tout commence avec un Plan de gestion de données de recherche:

2.2. Bonne pratique #2: Organiser!

S’armer contre le chaos!

2.2. Bonne pratique #2: Organiser!

2.2.1. Structure de dossiers

2.2. Bonne pratique #2: Organiser!

2.2.2. Noms de fichiers/dossiers

2.2. Bonne pratique #2: Organiser!

2.2.3. Noms de fichiers/dossiers

Établir des règles de nommage de fichiers/dossiers -> quelques conseils:

2.2. Bonne pratique #2: Organiser!

2.2.4. Contrôle des versions

Définir des procédures de gestion de versions de l’ensemble de ses fichier -> quelques conseils:

  1. De bonnes règles de nommage peuvent suffire:

    • Inclure numéro de versions dans convention de nommage (v01, utiliser décimale pour changements mineurs v01.1).
    • Créer un document où l’on documente la création de nouvelles versions et leur contenu (date, auteur, résumé des changements).
    • Documenter une entente relative à la création de nouvelles versions lors de travail d’équipe (quels changements nécessitent la création d’une nouvelle version).


  2. Outils de contrôle de versions pour garder une trace et un historique des anciennes versions de ses fichiers






2.2. Bonne pratique #2: Organiser!

2.2.5. Formats de fichiers


Règle générale pour la préservation et la diffusion:


N.B. Toujours bien vérifier la présence d’erreurs ou de pertes d’information suite à une conversion de formats ou une compression de fichiers.

2.2. Bonne pratique #2: Organiser!

2.2.6. Structure des données



2.2. Bonne pratique #2: Organiser!

2.2.7. Stockage/préservation

Se prémunir contre les désastes (perte de données, corruption de fichiers, formats obsolètes) pendant sa recherche (stockage) et après (préservation).


Deux principales causes:
1. Humaine : suppressions accidentelles, réécriture, simples copier/coller…
2. Infrastructure : virus, bugs divers d’applications/systèmes/disques…


Quelques questions à se poser:
- Backup de quoi? Qu’est-ce qu’on garde? Déterminer ce que l’on fait de ses anciens fichiers (Supprimer? Archiver?)
- Quand? Dépend de la fréquence des changements
- Pendant combien de temps? Définir une politique de conservation
- Où?
- Qui et comment? (si équipe)
- Obligation de destruction/conservation?

2.2. Bonne pratique #2: Organiser!

2.2.8. Stockage/préservation


Chaque option a ses avantages/désavantages: accèssibilité, sécurité, espace, obsolescence, perennité


Conseils:
- Compresser son projet complet avec date suite à des changements majeurs ou à intervalle régulier.
- Recopier périodiquement ses dossiers de préservation sur de nouveaux mediums (2-5 ans).
- Outils (TeraCopy, md5summer) pour vérifier l’intégrité des fichiers suite à un transfert(checksums).

2.2. Bonne pratique #2: Organiser!

2.2.8. Stockage/préservation

Encryption -> Chiffrement

Fichiers rendus illibles par l’utilisation d’algorithmes qui codent les données afin de les protéger grâce à un mot de passe. Sans le mot de passe, personne ne peut accéder au contenu.

“Research files with PII or other confidential information should always be compressed and encrypted before they are transferred from one location to another. This is especially important when transferring files as attachments to email or as files on physical media such as CDs or flash memory drives.”


Différentes stratégies possibles: encrypter son disque complet, certains fichiers, dossiers.

Différents outils disponibles:
- Certaines clés USB ont d’emblée un mécanisme d’encryption intégré.
- L’encryption peut aussi se faire par le biais d’un outil de compression (7-zip).
- Certains logiciels comme SPSS, Office (Word, Excel,…) offrent une option de chiffrement à l’enregistrement du fichier.
- De nombreux logiciels sont disponibles comme BitLocker (Windows), FileVault (Mac).
- Créer des dossiers encryptés: VeraCrypt/, Cryptomator.

2.3. Bonne pratique #3: Documenter!

Documentation + métadonnées (“Données sur les données”)


Des données sans métadonnées sont inutiles! : essentielles pour comprendre, repérer et utiliser des données.



2.3. Bonne pratique #3: Documenter!

2.3.1. Les fichiers README


N.B. Pour les données secondaires, inclure toute l’information nécessaire sur la source des données primaires pour en assurer la traçabilité (provenance)

2.3. Bonne pratique #3: Documenter!

2.3.2. Les Dictionnaires de codes / Codebooks






2.3. Bonne pratique #3: Documenter!

2.3.3. Les champs de métadonnées

Dataverse UdeM

2.3. Bonne pratique #4: Documenter!

2.3.4. Documenter son code

2.4. Bonne pratique #5: Diffuser!

Pourquoi « ouvrir » ses données?

– De plus en plus d’éditeurs, d’organismes gouvernementaux et de communautés scientifiques le suggèrent ou même l’imposent.

– Recherche de meilleure qualité avec meilleure visibilité (impact).


Où diffuser ses données? Quelques conseils :

2.4. Bonne pratique #5: Diffuser!

Conformité aux lois et à l’éthique: données sensibles

Que dit l’EPTC2?

Donc:

= Nécessité de prévoir le partage des données dès le début du projet!

Pour aller plus loin…

Guide GDR Direction des bibliothèques

Services aux chercheurs UdeM - Gestion des données de recherche

Alliance de recherche numérique du Canada - Ressources de formation

Guide to Social Science Data Preparation and Archiving